3 research outputs found
Metodolog铆a de clasificaci贸n de datos desbalanceados basado en m茅todos de submuestreo
En este trabajo se presenta la construcci贸n metodol贸gica para la clasificaci贸n de datos desbalanceados, a partir del an谩lisis comparativo entre t茅cnicas de submuestreo, y tiene como aporte fundamental el desarrollo de una nueva estrategia de submuestreo y la clara identificaci贸n de las condiciones de aplicaci贸n de cada una de las t茅cnicas. En particular, se consideran las t茅cnicas de submuestreo basado en agrupamiento, un nuevo m茅todo de submuestreo basado en teor铆a de la informaci贸n y una adaptaci贸n de los m茅todos propuesto para desarrollar un ensamble de clasificadores. Las pruebas de desempe帽o se orientan a la precisi贸n del sistema en la etapa de clasificaci贸n y a la capacidad de cada m茅todo para seleccionar las muestras m谩s representativas. Se realizan pruebas sobre 44 bases de datos desbalanceadas de peque帽a escala del repositorio de datos KEEL, y tres bases de datos de gran escala orientas a la predicci贸n de c谩ncer de mama y de homolog铆a de prote铆nas y la detecci贸n autom谩tica de displasias corticales. Los resultados obtenidos reflejan que el submuestreo basado en teor铆a de la informaci贸n es el m茅todo de submuestreo que mejor preserva la estructura de la clase mayoritaria, reduciendo la p茅rdida de informaci贸n en el proceso de eliminaci贸n de muestras. Adem谩s, este m茅todo presenta una mejora sustancial cuando es adaptado para generar la combinaci贸n de diferentes clasificadores aumentando notablemente la capacidad del sistema para generalizar el comportamiento de ambas clases lo cual se puede evidenciar en los resultados de clasificaci贸n
DiME: Maximizing Mutual Information by a Difference of Matrix-Based Entropies
We introduce an information-theoretic quantity with similar properties to
mutual information that can be estimated from data without making explicit
assumptions on the underlying distribution. This quantity is based on a
recently proposed matrix-based entropy that uses the eigenvalues of a
normalized Gram matrix to compute an estimate of the eigenvalues of an
uncentered covariance operator in a reproducing kernel Hilbert space. We show
that a difference of matrix-based entropies (DiME) is well suited for problems
involving the maximization of mutual information between random variables.
While many methods for such tasks can lead to trivial solutions, DiME naturally
penalizes such outcomes. We compare DiME to several baseline estimators of
mutual information on a toy Gaussian dataset. We provide examples of use cases
for DiME, such as latent factor disentanglement and a multiview representation
learning problem where DiME is used to learn a shared representation among
views with high mutual information
The Representation Jensen-R\'enyi Divergence
We introduce a divergence measure between data distributions based on
operators in reproducing kernel Hilbert spaces defined by kernels. The
empirical estimator of the divergence is computed using the eigenvalues of
positive definite Gram matrices that are obtained by evaluating the kernel over
pairs of data points. The new measure shares similar properties to
Jensen-Shannon divergence. Convergence of the proposed estimators follows from
concentration results based on the difference between the ordered spectrum of
the Gram matrices and the integral operators associated with the population
quantities. The proposed measure of divergence avoids the estimation of the
probability distribution underlying the data. Numerical experiments involving
comparing distributions and applications to sampling unbalanced data for
classification show that the proposed divergence can achieve state of the art
results.Comment: We added acknowledgment